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1 研究 现状 /research status 


1. 1 图 书 推荐 系统 


近 二 十 年 ,图 书 推荐 系统 作为 解决 信息 过 载 问题 的 重要 手段 ， 受 到 了 学 术 界 和 工业 界 的 


广泛 关注 与 深入 研究 。 


从 推荐 方法 来 看 ， 协 同 过 滤 失 
于 近邻 思想 或 基于 模型 的 协同 过 滤 算 法 是 最 为 主流 的 推荐 方法 。 
似 图 书 的 推荐 方法 , 以 及 将 多 种 扒 


E 荐 、 基 于 内 容 的 推荐 和 混合 


推荐 应 用 最 为 广泛 。 其 中 ， 基 


荐 方法 相 结合 的 混合 推荐 系统 .而 其 他 诸如 基于 关联 规则 、 
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荐 方法 也 在 不 断 尝试 应 用 。 


次 是 基于 内 容 特 征 推 荐 相 


从 数据 特征 来 看 ， 相 关 研 究 综 合 考量 了 图 书 特征 、 读 者 信 


息 以 及 交互 行为 ， 以 丰富 推荐 


系统 的 信息 维度 。 读 者 方面 ， 不 同 研究 中 分 别 探讨 了 网 络 社区 用 户外 、OPAC AGRA PB, 
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儿童 铝 等 特殊 读者 和 
属性 、 社 交 属 性 
者 、 出 版 社 等 内 容 特征 之 乡 
肠 销 书 效 应 1 等 。 交 互信 息 方面 ， 
k 借 关系 03， 以 及 包括 收藏 、 分 享 、 


从 系统 性 能 3 


均 得 到 了 针对 性 优化 处 班 
从 而 有 效 改善 数据 稀 玻 也 


# 体 的 个 性 化 图 书 推荐 场景 


并 融合 读者 的 自然 属性 、 兴 趣 


模型 以 改善 传统 扒 


1. 2 生成 式 推荐 系统 


传统 图 
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完成 模型 训练 。 然 而 ， 判 别 式 推荐 


看 ， 在 不 同 研究 成 果 
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E. MORITA Ie a ee AP), REAM, ERREA, Kiti, 1E 
， 相 关 研究 还 考量 了 图 书目 录 信 息 


四、 评分 信息 中、 评论 信息 oo、 


历史 借阅 记录 是 最 为 核心 的 交互 数据 ， 而 订阅 记录 031、 


点 击 等 行为 在 内 的 隐 式 反馈 数据 叫 ， 同 样 被 纳入 研究 


法 多 基于 判别 式 思 想 , 通过 不 断 优 化 正 采 样 和 负 采 样 的 判别 边界 ,从 而 


， 数 据 集 规模 、 稀 玻 程度 、 实 时 性 要 求 等 常见 问题 
将 知识 图 谱 和 读者 画像 技术 融合 于 图 书 检索 ， 
冷 启动 问题 。 刘 园 园 1 设计 了 基于 读者 兴趣 挖掘 的 深度 学 习 推 荐 
E 荐 算法 泛 化 能 力 不 强 问题 。 


框架 难以 确保 实验 数据 中 负 样 本 的 真实 性 和 代表 性 , 并且 
其 判别 过 程 仅 限于 已 知 的 候选 物品 集合 , 这 种 限制 极 大 地 束缚 了 系统 对 用 户 兴 趣 的 探索 和 捕 


捉 ， 因 此 判别 式 推荐 存在 难以 规避 的 回 有 限制 0 。 


近年 来 , 人 工 智 能 生成 内 容 CAI-Generated Content, AIGC ) 已 在 多 领域 取得 了 显著 成 就 ， 


在 信息 推荐 领域 同样 展 
习 数据 分 布 ， 生 成 与 真实 数据 


化 的 信息 需求 。 在 个 性 化 推荐 中 党 


(VAEZ, MERRTE 


分 布 相似 的 新 数据 ， 


现 了 其 突破 传统 推荐 范式 局 限 性 的 巨大 潜力 9。 生成 式 模型 通过 学 
以 提供 更 精准 的 推荐 ， 有效 满足 用 户 多 样 


见 的 生成 式 模型 有 生成 对 抗 网 络 (GAN)09] 或 变 分 自 编码 器 


荐 算法 不 断 涌 


性 、 主 动 性 推荐 结果 ， 更 好 满足 用 


虽然 生成 式 扒 


发 展 ， 基 于 大 语言 模型 1、 扩散 模型 包 、 多 任务 学 习 P3] 的 生成 式 推 
现 。 这 些 算法 各 有 特点 ， 适 用 于 不 同 的 场景 和 数据 集 。 通 过 生成 个 性 化 、 创 新 


户 多 样 化 需求 。 


荐 系统 的 相关 下 


究 正 在 不 断 深入 , 但 仍 面临 着 一 些 挑战 和 问题 。 如 数据 稀 


玻 性 和 冷 启 动 问题 、 计 算 复 杂 性 和 可 扩展 性 、 推 荐 结果 的 可 解释 性 等 。 数 据 稀 疏 性 指 的 是 读 


者 与 大 量 图 
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提出 了 多 种 解决 方案 。 例 如 ， 利 月 
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的 借阅 数据 有 限 ， 导 致 模型 难以 准确 捕捉 读者 偏好 。 冷 启动 问题 则 涉及 新 读 
者 或 新 图 书 在 推荐 系统 中 缺乏 足够 历史 数据 ， 难 以 进行 有 效 推 


荐 。 针 对 这 些 问 题 , 现 有 研究 
通过 挖掘 读者 与 读者 间 的 湾 


在 关系 ， 解 决 数据 稀 疏 性 问题 ， 并 提升 推荐 决策 的 准确 性 和 多 样 性 。 在 计算 复杂 性 和 可 扩展 
性 方面 ， 研 究 者 们 通过 优化 模型 结构 和 算法 设计 ， 如 采用 高 效 的 注意 力 机 制 和 降 和 采样 技术 ， 
降低 计算 成 本 ， 提 升 模型 处 理 大 规模 数据 的 能 力 。 对 于 推荐 结果 的 可 解释 性 ， 可 探索 基于 知 
识 图 谱 推理 和 自然 语言 生成 的 方法 ， 生 成 流畅 、 个 性 化 的 推荐 理由 ， 提 升 读者 体验 。 


1. 3 ^25 


综 上 所 述 ， 图 书 推荐 系统 立足 计算 机 领域 经 典 推荐 方法 ， 通 过 深入 挖掘 用 户 的 历史 行 
为 、 兴 趣 偏好 以 及 图 书 的 内 容 特征 等 信息 ， 融 合 知识 图 谱 25、 深 度 学 习 P59、 神 经 网 络 P7] 等 
新 兴 技 术 ， 从 而 推陈出新 ， 不 断 优化 和 改进 算法 性 能 。AIGC 的 显著 成 果 和 潜力 同样 为 下 一 
代 推 荐 系统 发 展 带 来 了 革新 性 的 解决 方案 。 因 此 ， 借 助 生成 式 模型 建 模 图 书 -读者 之 间 的 交 
互 关 系 ， 观测 读者 行为 数据 的 潜在 生成 分 布 ， 有 助 于 启发 传统 图 书 推荐 系统 ， 为 实现 生成 式 
图 书 推荐 新 范式 产生 积极 作用 。 不过， 从 现 有 研究 来 看 ， 基 于 生成 式 模 型 的 图 书 推荐 研究 还 
较为 有 限 , 如 何在 生成 式 模型 中 有 效 融 合 图 书 特征 信息 和 用 户 历史 交互 信息 更 是 一 个 吸 待 深 
入 研究 的 学 术 问 题 ， 因 此 ， 本 研究 从 生成 式 推荐 角度 进行 图 书 推荐 系统 的 分 析 和 探讨 。 


2 统一 内 容 特征 及 协同 信息 的 生成 式 图 书 推荐 方法 框架 /A Generative Book 
Recommendation Method Framework with Unified Content Features and Collaborative 


Information 


本 文 提出 了 统一 内 容 特 征 及 协同 信息 的 生成 式 图 书 推荐 方法 框架 ,本 文 主要 面临 两 个 推 
荐 场景 。 场 景 一 是 对 有 图 书 借阅 记录 的 图 书 〈 借 阅 记 录 超 过 1) 进行 智能 推荐 ， 采 用 协同 与 
内 容 信息 融合 增强 的 生成 式 推荐 算法 。 该 场景 包括 读者 -图 书 推荐 和 图 书 -图 书 索引 两 个 任 
务 。 其 中 输入 为 与 读者 交互 过 图 书 的 相关 数据 , 包括 读者 和 图 书 借阅 行为 数据 和 图 书 文本 描 
述 的 内 容 数 据 , 输出 为 所 推荐 图 书 。 图 书 的 文本 描述 被 输入 到 语言 模型 中 , 来 封装 内 容 信息 。 
所 用 的 MTS 模型 保留 了 Transformer 结构 编码 器 -解码 器 架构 。 场 景 二 主要 面向 刚 入 库 的 新 
图 书 (借阅 记录 不 超过 1) ， 实 验 中 所 用 数据 分 为 两 类 ， 分 别 对 借阅 记录 为 0 和 借阅 记录 不 
超过 1 的 数据 集 采 用 基于 预 训练 语言 模型 的 内 容 推荐 方法 进行 实验 .用 BERT 模型 得 到 图 书 
RARR, 接着 用 余弦 相似 度 计算 出 图 书 之 间 相 似 度 , 最 后 为 读者 推荐 与 其 借阅 图 书 相 似 的 
新 图 书 。 


2. 1 问题 定义 


设 u 和 i 分 别 表示 一 个 特定 的 读者 和 图 书 。 与 读者 u 借阅 过 的 图 书 集 记 为 用， 与 图 书 i 
借阅 的 读者 集 记 为 uw 。 图书 ;的 文本 描述 内 容 被 记 为 c, 。 随 机 分 配 的 表示 图 书 i 的 单一 序号 
被 表示 为 图 书 的 原子 标识 符 iad 。 除 jad 外 ， 每 个 图 书 i 还 被 分 配 一 个 生成 标识 符 
CGID,=[z ,于 于 ]， 其 中 1 表示 CID; HK IE. 

生成 式 推荐 任务 给 出 描述 1, 信息 的 输入 ， 生 成 GID 列表 作为 推荐 结果 。GID 是 通过 
自 回归 方式 生成 的 。 向 读者 u 推荐 图 书 i 的 概率 估计 为 ; 


~ 


p(u,i) = Tt! zz? 2! ,1 ) (3-1) 


推荐 者 选择 排名 最 高 的 图 书 N 作为 读者 U 的 推荐 列表 。 

在 本 文中 , 主要 面临 两 个 推荐 场景 。 第 一 个 场景 是 对 有 行为 数据 (有 读者 和 图 书 借阅 记 
录 ) 进行 智能 推荐 , 采用 协同 与 内 容 信 息 融 合 增强 的 生成 式 推 荐 算法 。 第 二 个 场景 是 对 于 刚 
入 库 的 新 书 (没有 图 书 相 应 的 借阅 记录 ) ， 采 用 基于 预 训练 语言 模型 的 内 容 推荐 方法 。 下 文 
将 分 别 介绍 这 两 个 场景 所 使 用 的 推荐 算法 。 


2. 2 基于 协同 与 内 容 信息 融合 增强 的 生成 式 推荐 算法 


读者 借阅 历史 


解码 器 gaa | 图 书 推荐 列表 
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图 3-1 协同 与 内 容 信息 融合 增强 的 生成 式 推荐 算法 流程 图 
Fig3-1 The figure of collaborative and content information fusion enhanced generative 


recommendation algorithm recommend process 

图 3-1 展示 了 所 建议 的 协同 与 内 容 信息 融合 增强 的 生成 式 推荐 算法 是 一 个 编码 器 -解码 
器 架构 的 生成 式 推荐 框架 。 能 够 同时 考虑 协同 信号 和 图 书 内 容 信息 ， 其 中 协同 信号 指 的 是 读 
者 和 图 书 之 间 的 借阅 记录 ， 图 书 内 容 信 息 即 为 图 书 的 文本 描述 。 具 体 来 说 ,该 算法 首先 使 用 
基于 图 神经 网 络 的 协同 过 滤 模 型 构建 GID。 其 次 协同 与 内 容 信 息 融 合 增 强 的 生成 式 推荐 算法 
的 训练 包括 两 个 任务 :读者 -图 书 推荐 任务 和 图 书 - 图 书 索 引 任务 。 读 者 -图 书 推荐 任务 的 目的 
是 将 读者 历史 借阅 图 书 的 内 容 信 息 映 射 到 推荐 图 书 的 GID 中 。 图 书 -图 书 索引 任务 的 目标 是 
从 图 书 侧 信息 到 图 书 GID 的 映射 。 这 两 个 任务 都 是 通过 一 个 基于 共享 编码 器 -解码 器 的 语言 
模型 来 实现 的 ， 以 更 好 地 捕捉 文本 内 容 信息 。 为 此 ， 推 荐 任务 将 协同 信号 和 图 书 内 容 信 息 统 
一 起 来 以 实现 更 好 的 推荐 , 而 索引 任务 则 执行 协同 信号 和 内 容 信 息 之 间 的 对 齐 。 需要 强调 的 
是 ， 所 涉及 的 语言 模型 的 参数 也 进行 了 微调 ， 以 更 好 地 适应 语言 模型 进行 推荐 。 


2. 2. 1 生成 式 标识 符 的 构建 


GID 的 构建 在 生成 式 推荐 中 起 着 至 关 重 要 的 作用 , 主要 利用 分 层 聚 类 方法 从 基于 图 神经 
网 络 的 协同 过 滤 模 型 构建 GID 。 有 具体 来 说 ， 首 先 从 经 过 借阅 记录 训练 的 Light-GCN 模型 中 
提取 图 书 表 示 。 然 后 采用 有 约束 的 K-means 算法 对 图 书 表 示 进 行 分 层 聚 类 。 当 前 层级 聚 类 
以 上 级 聚 类 簇 中 的 图 书 作 为 整个 实例 集 进行 。 对 于 最 后 一 层 叶 子 节点 ， 将 序号 1 $0 K 随机 


分 配给 这 些 图 书 。 这 样 ， 就 建立 了 开 又 树 来 组 织 图 书 集 。 每 个 图 


PABX) 


应 一 个 叶 节 点 ， 而 
上 训练 的 ， 因 


从 根 到 叶 节 点 的 路 径 是 该 图 书 的 GID. HH LightGCN 是 在 读者 -图 书 借阅 图 
此 GID 可 以 对 协同 信号 进行 建 模 。 同 时 ，GID 的 每 个 位 置 都 有 一 个 码 本 嵌入 外 
内 容 信息 整合 到 图 书 的 GID 中 。 


2. 2. 2 读者 -图 书 推 荐 


ri 


Ur 


读者 的 输入 为 无 序 元 组 ， 每 个 元 组 描述 该 读者 的 一 个 借阅 图 书 的 内 容 信 | 
的 文本 描述 , 采用 通用 数据 格式 。 具体 来 说 ， 
它 来 自 于 一 个 | 


键 值 属性 对 (K, v) 组 成 的 扁平 
描述 为 : 


m 


ESR, iad, 增加 模型 保 真 度 。 


c, =[iad,, k, Verve 


读者 u 的 借阅 项 集 记 为 六 .因此 ， 读 者 -图 书 失 


El 
AE 


着 任务 的 输入 
X, - [íc; lie] 


RIB i 的 文本 描述 c; 被 表述 为 一 个 图 


E 阵 来 帮助 将 


。 对 于 图 书 i 
S RISE US 
图 书 的 内 容 


G-1) 


(3-2) 


其 后 ， 采 用 一 个 基于 编码 器 -解码 器 的 模型 来 处 理 文本 。Encoder(X, ) 为 隐藏 状态 ,之 
后 ， 给 定 在 第 t 步 步骤 之 前 生成 的 标记 z”。 这 个 过 程 可 以 表述 为 : 
d, = Decoder(Encoder(X,),z ^) (3-3) 
H d, Fur E t GS ASR AEE E, Sev EEG UR t WERK, EAN: 
p(z' |z",X,,) = soft max(d, e E; ), (3-4) 
对 于 训练 集中 的 一 对 (usi) ， 推 荐 的 生成 损失 公式 为 : 
l 
Lec - -» log p(z; [Meet ee) (3-5) 
t=l 
在 这 项 工作 中 使 用 预 训练 语言 模型 MT5 作为 生成 式 框架 中 所 采用 的 模型 。MT5 是 由 谷 
歌 基 于 其 TS 模型 开发 的 一 个 多 语言 模型 版 本 ,这 个 模型 通过 训练 涵盖 101 种 语言 的 数据 集 ， 
具有 显著 的 多 语言 处 理 能 力 。 通 过 其 跨 语 言 理 解 能 力 、 强 大 的 性 能 表现 、 优 化 的 数据 集 和 训 
练 方 法 以 及 广泛 的 应 用 前 景 等 好 处 ,为 NLP 领域 带 来 革命 性 的 变化 。 本 文中 MTS 的 参数 通 
过 反 向 传播 进行 微调 ， 以 更 好 地 适应 语言 模型 进行 推荐 。 
在 此 基础 上 , 进一步 引入 排序 任务 来 增强 其 排序 能 力 。 此 处 随机 采样 一 个 读者 u 未 曾 借 
WFH GID 与 正 样 本 没有 重 炙 的 图 书 i， 作 为 负 样 本 i 。 利 用 BPR 损失 来 优化 排名 ， 公 式 


为 : 
lapr =—Ino(h(X,)e(h(X,)—h(X, ))) 


2.2.3 图 书 -图 书 索引 任务 


为 对 齐 协同 信号 和 图 书 内 容 信息 ， 引 入 图 书 - 图 书 索 引 任务 ， 将 基 了 
射 到 基于 借阅 的 协同 空间 。 图 书 索引 


图 书 借阅 过 的 读者 信息 ， 以 进一步 编 


码 协同 信号 。 因 此 ， 索 引 任务 的 输入 被 表 


内 容 的 


(3-6) 


Vs Py 
laa T 


间 映 


任务 的 输入 序列 包含 图 书 的 文本 信息 。 此 外 还 引入 与 该 


ZA: 


X; =[c,, (uad, |u €U;1] (3-7) 

索引 任务 是 通过 与 推荐 任务 相同 的 语言 模型 和 码 本 舱 入 进行 的 。 索 引 任务 的 生成 概率 与 

Eq.(4) 和 Eq.(3) 相 似 ， 只 是 模型 输 输 入 为 已 TAN EX, s FIR RAS MITA ET BOBO - 
图 书 索引 的 损失 定义 为 : 


l 
linder =), log p(z; [Reece se) (3-8) 
tl 
为 了 在 协同 信号 和 内 容 信息 之 间 进 行 更 为 有 效 的 对 齐 , 进一步 引入 对 比 学 习 任 务 。 其 思 


想 是 具有 相似 GID 的 图 书 在 基于 内 容 的 语言 空间 中 也 应 该 相似 。 为 此 , 随机 抽取 一 个 在 GID 
TE REFUSES (EI D 1, 作为 正 样本 ， 随 机 抽取 另 一 个 GID 没有 重叠 的 图 书记 作为 负 样本 。 
对 比 学 习 任务 损失 被 定义 为 : 

1, =-Ino(h(X,) e (QC, ) -AX ))) (3-9) 
HP h() 表 示 编 码 器 (.) 的 最 后 隐藏 状态 ，c 表 示 sigmoid 函数 。 这 样 的 对 比 损失 有 助 于 编 


N 


码 器 学 习 更 好 的 图 书 输入 表示 。 


2. 3 基于 预 训练 语言 模型 的 内 容 推 荐 方法 


RCM fn | (| 新 入 库 的 图 书 ] 先前 入 库 的 图 书 
- 3 内 容 指 术 
作者 : [RR 
RR ST 


T * $8: Sh 图 书 1 | 图 书 2 Bën 
m 4 悍 刀 行 之 新 NS 0.90 
| di Eod E 图 书 1 1 031 0.94 
E BE | 
É E: id | [2| BERT S|] we [ost | ， 028 > RankScore > | on 图 
EINEUIE PTEE 
SESS 预 训 统 语言 模型 | EN : 
Mx as Erg E Bën | 094 | 026 1 RES. 0.64 
"t Kx VR 
Te UT [| wem 图 书 说 入 表示 基于 内 容 的 图 书 相似 度 得 分 矩阵 全 
Ee y 


图 3-2 冷 启动 流程 图 
Fig3-2 The figure of cold boot recommend process 

对 于 新 入 库 的 图 书 由 于 没有 足够 的 读者 和 图 书 借阅 记录 , 很 难 利用 基于 协同 过 滤 的 推荐 
模型 来 为 读者 推荐 新 图 书 。 因 此 利用 BERT 预 训练 语言 模型 来 进行 新 书 的 个 性 化 推荐 探索 ， 
为 读者 推荐 与 其 曾经 借阅 过 图 书 在 内 容 上 比较 相似 的 新 图 书 。 
具体 做 法 如 图 3-2 所 示 。 对 于 馆藏 图 书 ,根据 图 书 的 内 容 描 述 经 过 BERT 预 训练 语言 模 
型 获得 图 书 嵌 入 表示 ,其 中 的 图 书包 括 新 入 库 的 图 书 和 有 足够 借阅 记录 的 先入 库 图 书 。 所 用 
到 的 BERT 模型 是 一 种 由 Google 在 2018 年 提出 的 自然 语言 处 理 〈Natural Language 
Processing, NLP) 预 训练 模型 。 其 中 图 书 的 内 容 描述 包括 书 名 、 作 者 和 图 书 分 类 类 别 信息 。 
BERT 能 给 处 理 多 语言 数据 , 它 的 出 现 极 大 地 推动 了 NLP 的 发 展 ,可 以 应 用 于 文本 分 类 (如 
情感 分 析 、 主 题 分 类 ) 、 命 名 实体 识别 、 问 答 系统 、 文 本 摘要 和 机 器 阅读 理解 等 多 种 领域 ， 
同时 BERT 在 算法 还 有 很 大 的 优化 空间 。 
其 后 ， 根 据 获 得 的 图 书 租 入 表示 采用 余 强 相似 度 获得 基于 内 容 的 图 书 相似 度 得 分 矩阵 。 
由 于 是 根据 相似 度 进行 图 书 推荐 , 因而 下 一 步 更 新 读者 对 未 借阅 过 图 书 的 打分 情况 , 利用 根 
据 图 书 之 间 相 似 度 和 读者 对 图 书 的 借阅 情况 来 联合 预 估 该 读者 对 某 个 未 借阅 图 书 的 偏好 情 
况 。 有 具体 公式 如 下 ; 


d M" Dad's Sis n 
lui = S 
2 us hn 
HPS, e SH Mn ZA. 7, Ee u 和 图 书 n 之 间 的 借阅 情况 , 读者 有 图 书 
的 借阅 记录 则 该 值 为 1， 否则 为 0。 最 后 根据 图 书 的 得 分 排序 对 读者 进行 未 曾 借 阅 图 书 推荐 。 


(3-10) 


3 实验 和 结果 分 析 /Experiment and result analysis 


3. 1 数据 集 


本 研究 选用 山东 大 学 图 书馆 2017 年 后 采购 的 部 分 图 书 及 其 流通 数据 、 读 者 信息 来 评估 
模型 性 能 。 其 中 包含 图 书信 息 111479 条 ， 读 者 信息 31840 条 ,借阅 数据 390300 条 。 对 于 图 
书信 息 ， 选 取 元 数据 中 的 书 名 、 作 者 、 中 图 法 分 类 号 对 应 的 分 类 类 别 作为 图 书 的 文本 内 容 描 


述 。 


R 4-1 数据 总 数 展 示 
Tab4-1 Data total presentation 


图 书信 息 读者 信息 借阅 数据 
训练 集 111479 31840 289000 
验证 集 111479 31840 48700 
测试 集 111479 31840 52600 


表 4-1 展示 了 预 处 理 后 数据 集 的 统计 数据 。 根 据 读 者 和 图 书 的 借阅 记录 ,将 每 个 读者 的 
历史 借阅 记录 随机 分 成 训练 /验证 /测试 集 ， 比 例 为 8:1:1， 其 中 训练 集 包 括 借阅 记录 289000 
条 ， 验 证 集 含 借阅 记录 48700 条 ， 测 试 集 含 借阅 记录 52600 条 。 


表 4-2 基于 预 训练 语言 模型 的 内 容 推荐 方法 场景 数据 情况 展示 
Tab4-2 Content recommendation method scene data presentation based on pre-trained language model 


书目 数量 书目 占 比 
音 阅 次 数 =0 12330 11.06% 
彰 阅 次 数 <=1 59473 53.3596 


如 表 4-2 所 示 ， 基 于 预 训 练 语 言 模型 的 内 容 推荐 方法 场景 所 用 数据 分 为 两 类 。 训 练 集 中 
未 曾 出 现 但 测试 集中 出 现 过 的 图 书 数量 为 12330, 占 比 11.06%. 在 训练 集中 借阅 次 数 不 超 过 
一 次 的 图 书 数量 为 59473， 占 比 53.35%。 


=> 


3.2 参数 设置 


本 次 实验 中 ,使 用 MT5-small 模型 作为 语言 模型 来 构建 。 对 于 所 有 数据 集 ，GID 的 长 度 
设置 为 [=3, 并 将 层次 结构 K-means 中 的 复数 设置 为 k=64。 每 个 读者 通过 随机 抽样 的 借阅 图 
书 元 组 的 聚合 来 表示 。 使 用 均匀 分 布 对 负 样 本 进行 采样 ， 避 免 不 同 负 采样 策略 的 影响 。 为 了 
与 预 训练 的 MTS-small 模型 的 词 嵌入 一 致 ， 本 次 实验 中 uad, iad 和 codebook HIERA ERGS 
设置 为 S12。 对 比 任务 损失 权重 设 为 0.1。 此 外 ,利用 Pytorch 框架 构建 模型 实现 ,使 用 AdamW 
优化 模型 ， 学 习 率 为 5e-4， 批 量 大 小 设置 为 128， 总 共 的 训练 轮 数 为 60 次 。 有 具体 的 实验 参 
数 和 环境 配置 如 表 4-2 和 表 4-3 所 示 。 首 先进 行 60 轮 微调 训练 后 把 各 轮 模型 保 在 下来， 分 
别 进行 模型 的 验证 ， 并 选择 指标 最 好 的 作为 最 终 模型 。 


表 4-2 实验 参数 
Tab.4-2 Experimental parameters 


参数 名 称 大 小 
学 习 率 Se-4 
GID 长 度 3 
K-means 聚 类 复数 64 
对 比 任务 损失 权重 0.1 
批量 大 小 128 
训练 总 轮 次 60 


表 4-3 实验 环境 配置 表 
Tab.4-3 Experimental environment configuration table 


参数 名 称 大 小 
GPU GeForce GTX 3090GPU 
处 理 器 核心 数量 48 
内 存 容量 500G 
服务 系统 Linux 
显存 大 小 24G 
框架 Pytorch 


3. 3 基线 模型 


(1) MF: 在 推荐 系统 
者 和 图 书 的 隐 含 特征 提取 及 评分 预测 。 


将 读者 -图 书评 分 和 


E 阵 分 解 为 两 个 低 维 和 矩阵 乘积 ， 从 而 完成 读 


(2) LightGCNI31， 通 过 轻 量 级 的 图 卷 积 神 


经 网 络 ， 在 读者 -图 书 借阅 矩阵 上 进行 线性 


传播 来 学 习 读者 和 图 书 的 嵌入 ,从 而 提取 读者 和 图 书 的 隐 含 特征 , 并 利用 这 些 特征 进行 推荐 。 


3.4 评 价 指 标 


本 研究 中 , 为 精准 评估 基线 模型 与 所 提出 


bs: 
(1) 召回 率 (Recall@N) 


型 的 性 能 表现 , 选用 以 下 两 个 经 典 的 评估 指 


Recall@N 表示 在 前 N 个 推荐 结果 中 ， 模 型 检测 到 的 正确 目标 的 数量 占 所 有 实际 目标 


数量 的 比例 ， 以 此 评估 模型 在 有 限 的 预测 结果 


所 示 。 


Recall@N= TP / (TP + FN) 
其 中 TP 表示 真正 例 (True Positives) ， 即 模型 正确 预测 为 正 类 的 实例 数 ，FN 表示 假 反 


对 正 例 的 履 盖 度 。 指 标 计算 如 公式 〈4-1) 


(4-1) 


f^] (False Negatives) ， 即 模型 错误 地 预测 为 负 类 的 实际 正 类 实例 数 。 


(2) 归 一 化 折 损 累计 增益 (NDCG@N) 


NDCG@N 在 考虑 各 个 图 书 位 置 的 基础 上 ， 对 各 图 书 的 相关 性 得 分 进行 累加 ， 并 对 处 于 


较 低位 置 的 图 书 得 分 进行 折 损 , 以 此 评估 # 
所 示 。 


ETE 


各 项 的 排名 情况 。 指 标 计算 如 公式 (4-2) 


NDCG@N = DCG@N / IDCG@N (4-2) 
其 中 DCGGQN( 折 损 累 计 增 益 ) 是 根据 推荐 列表 中 前 N 个 图 书 相关 性 和 排名 位 置 的 对 数 计 
算得 出 的 累计 增益 ，IDCG( 理 想 情 况 下 的 折 损 累计 增益 ) 是 假设 按照 相关 性 降序 排列 计算 得 
出 的 最 大 累计 增益 。 


H | 


T 


3. 5 结果 分 析 
R44 借阅 历史 超过 1 的 图 书 的 表现 
Tab4-4 The performance of books with a history of more than 1 
Recall@20 Recall@50 Recall@100  NDCG@20 NDCG@50 NDCG@100 
MF 0.0067 0.0118 0.0185 0.0064 0.0084 0.0106 
LightGCN 0.0077 0.0123 0.0206 0.0076 0.0092 0.0119 
Content-based 0.0099 0.0161 0.0245 0.0090 0.0113 0.0139 


如 表 4-4 所 示 ， 对 于 借阅 次 数 超 过 一 次 的 图 书 推荐 ， 相 比 MF 和 LightGCN 方法 ， 本 文 
所 用 的 基于 协同 与 内 容 信息 融合 增强 的 生成 式 推荐 算法 在 Recall 和 NDCG 指标 上 都 有 明显 
提升 ， 证 实 H 有 效 性 。 


表 4-5 在 不 存在 借阅 历史 的 图 书 的 表现 


Tab4-5 The performance of a book with no interaction history 


Recallà20 ^ Recallgj50  Recall@100 NDCG@20 | NDCG(250 NDCG@100 


MF 0.0039 0.0051 0.0073 0.0015 0.0018 0.0023 
LightGCN 0.0021 0.0048 0.0104 0.0009 0.0015 0.0026 
Content-based 0.1056 0.1994 0.3053 0.0462 0.0677 0.088 


如 表 4-5 所 示 ， 对 于 不 存在 借阅 历史 的 图 书 ， 相 比 MF 和 LightGCN 方法 ， 本 文 所 用 的 


基于 预 训 练 语 言 模 型 的 内 容 推荐 方法 在 Recall 和 NDCG 指标 上 都 有 明显 提升 ， 证 实 其 有 效 
性 


Lo 


A 4-6 借阅 历史 不 超过 ] 的 图 书 的 表现 
Tab4-6 The performance of books with a history of less than 1 


Recall@20 Recall@50 Recall@100 NDCG@20 NDCG@50 NDCG@100 


MF 0.0161 0.0207 0.0262 0.0097 0.0108 0.0119 
LightGCN 0.018 0.0241 0.0323 0.0103 0.0117 0.0133 
Content-based 0.0253 0.0644 0.1145 0.0117 0.021 0.0309 


如 表 4-6 所 示 ， 对 于 借阅 历史 不 超过 1 的 图 书 推荐 ， 相 比 MF 和 LightGCN 方法 ， 本 文 
所 用 的 基于 预 训练 语言 模型 的 内 容 推 荐 方法 在 Recall 和 NDCG 指标 上 都 有 明显 提升 ， 证 实 
其 有 效 性 


ZN 


o 


4 结语 /conclusion 


本 文 重点 研究 了 统一 内 容 特 征 及 协同 信息 的 生成 式 图 书 推荐 方法 框架 ,首先 根据 相关 文 
献 介绍 图 书 推荐 的 重要 性 ， 了 解 生成 式 模型 。 本 文 主要 针对 两 个 场景 分 别 进行 研究 ,分别 为 
借阅 次 数 超过 一 次 图 书 推荐 和 借阅 次 数 不 超 过 一 次 图 书 推荐 。 对 于 有 图 书 借阅 记录 的 图 书 ， 


使 用 协同 与 内 容 信息 融合 增强 的 生成 式 推荐 算法 ， 它 是 一 个 编码 器 -解码 器 架构 的 生成 式 推 
荐 框架 。 首 先 利 用 LightGCN 对 图 书 进 行 特征 提取 得 到 嵌入 表示 ， 并 获得 其 GID 。 接 着 使 用 
人 码 器 -解码 器 结构 整合 图 书 内 容 描述 信息 对 其 进行 端 到 端的 图 书 推荐 。 对 于 借阅 次 数 不 超 
过 一 次 图 书 则 是 利用 基于 预 训 练 语言 模型 的 内 容 推荐 方法 ,用 BERT 预 训练 模型 获取 其 嵌入 
表示 , 接着 计算 图 书 之 前 相似 度 , 最 后 根据 相似 度 为 用 户 推 荐 与 其 曾经 借阅 图 书 较 为 相似 的 
图 书 。 

最 后 利用 所 处 理 的 山东 大 学 图 书馆 数据 集 进行 相关 方法 实验 ,实验 结果 表明 在 两 个 场景 
中 所 采用 的 方法 相对 于 MF 和 LightGCN 算法 无 论 是 在 Recall 还 是 NDCG 指标 上 都 有 明显 
提升 ， 证 实 了 其 有 效 性 。 
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Research on Content based Generative Book 


Collaborative Recommendation Method 
Cheng Chuansheng! Xin Xin’ Wang Yidan Li Xiaojie’ 
1. Shandong University Library, Jinan 266000 
2.School of Computer Science and Technology, Shandong University, Qingdao 
250101 

Abstract: [Objective] To alleviate the problem of information overload in book 
resources and enrich readers’ online experience through generative book 
recommendation methods. [Application Background] Applied to the book 


recommendation service of Shandong University Library, covering 111479 pieces of 


book information purchased after 2017, 31840 pieces of related reader information, 
and 390300 borrowing records. [Method] For book recommendations with borrowing times 


greater than 1, a generative recommendation algorithm enhanced by the fusion of 


collaborative information and content feature information is adopted. For book 
recommendations with borrowing times less than or equal 1, a content recommendation 
method based on pre trained language models is adopted to solve the cold start problem 
[Result] The experimental results show that for books borrowed more than once, 
compared to the LightGCN algorithm, the method proposed in this paper Recal1@100 
The improvement has reached 18.99, NDCG@100 The improvement has reached 16. 8%; For 
books without borrowing history, compared to the LightGCN algorithm, the method 
proposed in this paper Recal1@100 Reaching 0. 3053, NDCG@100 Reached 0. 088; For books 
with a borrowing frequency of no more than 1, compared to the LightGCN algorithm, 
the method proposed in this paper is Recall100 Reaching 0.0145, NDCG@100 Increased 


by 132%. [Conclusion] The generative book recommendation method that unifies content 


features and collaborative information has superior performance and can play an 
important role in reducing information overload and enriching readers' online 
experience. 
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